高书生│文化数字化:蓄能与赋能
The following article is from 伏羲云 Author 高书生
蓄能
根据中央的部署安排,实施国家文化数字化战略的长远目标是,到2035年,建成物理分布、逻辑关联、快速链接、高效搜索、全面共享、重点集成的国家文化大数据体系,文化数字化生产力快速发展,中华文化全景呈现,中华文化数字化成果全民共享、优秀创新成果享誉海内外。应当说,目标宏伟远大,催人奋进。
提起大数据,许多人自然而然就想到流量,对消费过程中产生的数据“如数家珍”,这是互联网思维,所谈论的大数据是需求侧大数据。文化大数据是供给侧大数据,是将中华民族积淀了五千多年的文化资源,转化为具有文化内涵的数据,使其成为真正的生产要素以及文化创新创造的素材和源泉,聚焦社会主义先进文化、革命文化、中华优秀传统文化,从中提取具有历史传承价值的中华文化元素符号和标识,丰富中华民族文化基因的当代表达,增强对伟大祖国、中华民族、中华文化、中国共产党、中国特色社会主义的认同。
技术性、专业性都很强的文化数字化,之所以能够上升为国家战略,而且是宣传思想文化战线唯一冠名国家的战略,实现价值观认同是根本原因。
2023年6月,习近平总书记在文化传承发展座谈会上指出,在五千多年中华文明深厚基础上开辟和发展中国特色社会主义,把马克思主义基本原理同中国具体实际、同中华优秀传统文化相结合是必由之路。“第二个结合”是又一次的思想解放,让我们能够在更广阔的文化空间中,充分运用中华优秀传统文化的宝贵资源,探索面向未来的理论和制度创新。
中华优秀传统文化的宝贵资源藏在哪儿?
两办《关于推进实施国家文化数字化战略的意见》给出了答案:统筹利用文化领域已建或在建数字化工程或数据库所形成的成果,全面梳理中华文化资源,推动文化资源科学分类和规范标识,关联思想理论、文化旅游、文物、新闻出版、电影、广播电视、网络文化文艺等不同领域的文化资源数据,关联文字、音频、视频等不同形态的文化资源数据,关联文化数据源和文化实体,关联形成中华文化数据库。
01
汇集
就是把全国性文化资源普查数据汇集起来,包括文物、古籍、美术、地方戏曲剧种、民族民间文艺、农耕文明遗址等数据资源。
02采集
包括开展红色基因库建设,对红色纪念馆藏品进行高精度采集、标注,并实现全国联网,形成中华民族文化基因库。
03贯通
就是按照物理分布、逻辑关联原则,通过标识解析体系,把已建或在建的文化专题数据库关联起来,实现数据互联互通,通过释放数据解放文化生产力。
在全国性文化资源普查方面
2017年中办、国办印发的《关于实施中华优秀传统文化传承发展工程的意见》就提出“实施中华文化资源普查工程”。全国第三次文物普查显示,全国共登记的不可移动文物共766722处,普查共制作电子数据包2868个,其中文本文件462.1万个,各类图纸156.8万幅,照片228.1万张,所占空间近8TB;第一次全国可移动文物普查仅照片就5000万张,数据总量超过140TB;共著录登记汉文古籍270余万部和藏文古籍1.8万函,2861家单位参与并完成古籍普查登记工作,已累计完成645家收藏单位的《全国古籍普查登记目录》,共计137种215册,收录147万余条款目;全国美术馆藏品普查,藏品实际数量592663件,藏品图片820288幅,数据总量6.9TB;全国现存348个剧种,参加普查的戏曲演出团体共有1.2万个,共收入表格11万份、图片4.7万张;被誉为“文化长城”、耗时30年完成的《中国民族民间文艺集成志书》,共计298卷、400册,约4.5亿字,收集相关资料逾50亿字(包括曲谱、图片)。近期,文化和旅游部发布了11个文化资源普查成果转化利用典型案例,充分展示了文物、古籍、戏曲剧种等各项文化资源普查工作成果。
在数据采集方面
故宫博物院保存约186万件文物藏品,已有90万件套实现了数字化采集,占48%左右。中国国家博物馆有约143万件套,70万件套实现数字化采集,约占49%。中国美术馆有约13万件套藏品,有10万件套已经实现了数字化采集,约占76.9%。国家图书馆的古籍大约317万册件,目前有61万册件实现了数字化采集,约占19.3%。
至于已建数据库(媒资库)就更多了。
比如出版领域,具有一定规模的数据库已经不少,期刊领域有同方知网、万方数据、龙源期刊、维普期刊等大型期刊数据库,在图书领域有综合性的国家数字图书馆、读秀网、掌阅科技、中文在线、方正电子书等图书数据库,专题性的如人民出版社的中国共产党思想理论资源数据库、科学出版社的科学文库、社科文献出版社的皮书数据库等,以及专业性的如中华古籍资源库、爱如生、翰堂典藏、书同文等古籍数据库等,还有许多出版社、报社建设了自己的数据库。
数据不标注,等于没内涵。
01
要对文化数据进行科学分类。分类标准可参照联合国教科文组织的文化统计框架,将数据划分为六大类别,即文化和自然遗产、表演和节庆活动、视觉艺术和手工艺、书籍和报刊、视听(音像)和交互媒体、设计和创意服务;02
按照专业性的知识图谱进行编目,确定每个数据的方位;03
对文化资源数据的特征进行描述并进行数据标签化;04
为每一个元素级数据分配ISLI标识编码。
赋能
数字化时代,数据是基础性、战略性资源,是重要的生产要素,也是新能源。实施国家文化数字化战略,一方面是蓄能,累积新能源,蓄积新动能,另一方面是赋能,赋能体系再造,赋能文化企业,赋能人工智能。
党的二十大报告强调:健全现代公共文化服务体系,健全现代文化产业体系和市场体系。数字化时代怎样去健全?大数据、云计算、物联网、区块链、人工智能等数字新技术,并不是漂亮的口号,它们从根本上改变了文化事业和文化产业繁荣发展的技术基础,过去的技术路线、建设路径已经不再适应,无论公共文化服务体系,还是文化产业体系和市场体系,都面临重构、再造的艰巨任务,否则就失去了现代性,不能称其为现代的。
长期以来,文化在行政管理上被划分为若干行业,比如文化艺术、广播影视、新闻出版、网络文化等,并分属于不同行政部门。2018年,党和国家机构改革之后,基本形成了文化旅游、文物、新闻出版、电影、广播电视、网络文化等行业格局。把文化划分为若干行业,在行政管理上有其合理性,但在文化被行政分业的状态下,难以形成“大文化”和“一盘棋”格局,更不会从战略的高度谋划体系再造。
实施国家文化数字化战略,为体系再造奠定了基础。国家文化数字化战略中的文化,在概念上是“大文化”,即公共文化+文化产业;从涵盖领域看,包括思想理论、文化旅游、文物、新闻出版、电影、广播电视、网络文化文艺等;从涵盖部门看,包括宣传、网信、文旅、文物、新闻出版、电影、广播电视等。一句话,实施国家文化数字化战略,是宣传思想文化全战线的任务。
以国家文化大数据体系建设为抓手,是实施国家文化数字化战略的指导思想;建成国家文化大数据体系,是实施国家文化数字化战略的主要目标。文化大数据的体系架构,可概括为“两侧四端”。两侧分别是供给侧、需求侧,四端分别是资源端、生产端、消费端和云端:
——资源端是文化资源的收藏或保管机构,包括博物馆、图书馆、美术馆、文化馆、档案馆、资料馆等。
——生产端是数据采集加工生产机构,包括广播电台、电视台、出版社、报刊社、文艺院团、设计公司等。
——消费端是文化消费场所,包括线上和线下,线上分为大屏和小屏,线下包括文化教育设施和公共场所等。
——云端是服务于文化资源数据的存储、传输、交易和文化数字内容分发的机构,包括文化数据服务中心和文化数据服务平台。
四端在空间上并存,资源端、生产端和消费端由云端链接;在时间上继起,文化资源从资源端进入云端交易,生产端从云端购买文化资源加工提炼出素材再进入云端交易,从云端购买到素材的生产端进行二次创作生产文化产品进入云端交易,并通过云端分发到消费端。在这个过程中云端的交易非常重要,它既是资源和生产的中介,又是生产和消费的中介。
由此可见,国家文化大数据体系建设,旨在构建一套从文化资源到文化生产再到文化传播、文化消费的全新体系,从抽象化的“两侧四端”,扩展开来就可以形成现代公共文化服务体系、现代文化产业体系和市场体系。
融资难、融资贵始终困扰着文化企业,因为文化产业是轻资产行业。为解决文化和金融对接问题,2010年,中宣部会同中国人民银行、财政部以及原文化部、广电总局、原新闻出版总署、原银监会、证监会和原保监会出台了《关于金融支持文化产业振兴和发展繁荣的指导意见》;2016年,在中宣部和财政部的支持下,中国资产评估协会印发了《文化企业无形资产评估指导意见》。财政部2023年8月印发、2024年1月1日开始执行的《企业数据资源相关会计处理暂行规定》,对于从源头上解决文化和金融对接提供了机遇。
文化数字化为文化企业“数据资源入表”提供了解决方案:
两办《关于推进实施国家文化数字化战略的意见》十分重视标识问题,不仅明确“全面梳理中华文化资源,推动文化资源科学分类和规范标识”,而且强调“加强标识解析体系建设,推广信息与文献相关国际标准”,“推动标识解析与区块链、大数据等技术融合创新,为文化资源数据和文化数字内容的确权、评估、匹配、交易、分发等提供专业服务”。
2015年,国际标准化组织(ISO)发布了由我国提案创建的信息与文献领域标识符国际标准,即关联标识符(英文简称ISLI),这是唯一标识实体之间关联关系的全球通用标识符,标识编码由十进制数字和三个字段构成,具有标识、关联、解析和鉴权功能,可以为每一个数据发放唯一身份证。
2022年8月,ISLI国际注册权利机构已授权中国公共关系协会文化大数据产业委员会,承担中国国家文化大数据体系领域的ISLI注册管理业务。为此,中国公共关系协会文化大数据产业委员会设立了国家文化大数据标识注册中心,部署统一的ISLI注册系统,同部署在有线电视网络设施的提供标识编码注册登记和解析服务的技术系统,以及部署在文化机构数据中心的底层关联服务引擎和应用软件实现无缝衔接,对国家文化大数据体系中的文化数据进行标识。
2023年9月,在“2023北京文化论坛”上,北京市版权局与中国公共关系协会文化大数据产业委员会签署战略合作协议,设立可信版权链国家文化大数据超级节点,对接国家文化大数据标识注册中心,共建文化大数据领域数字版权标识标准,为国家文化大数据体系提供可信数字版权。
可信版权链是全国首个由政府主管部门主导的版权链,是由版权行政管理部门签发的数字版权证书,入选中央网信办等16部委国家区块链创新应用试点。打通可信版权链和北京互联网法院建立的区块链电子存证平台——天平链,形成了法院、公证处、司法鉴定所、国家文化专网、互联网平台共同参与的数据治理生态,为文化数据提供版权登记、确权、存证、变更、维权等基础服务。
无论是初始计量,还是后续计量,都离不开数据交易。数据资源被确认为无形资产或存货,初始计量中都包含了包括购买价款在内的采购成本,即使企业内部产生的数据资源,其价值也需要从数据交易中反推和验证。深圳文化产权交易所承建的全国文化大数据交易中心、江苏文化产权交易所承建的国家文化大数据华东区域交易平台暨江苏省文化大数据交易平台相继上线运行,为来源于文化资源的数据交易搭建起服务平台,同时对确认为无形资产或存货的数据资源进行初始计量、后续计量等相关会计处理,奠定了基础。
将数据纳入企业报表的资产项,数据资产入表后对于企业最直观的改变,就是企业资产规模的提升。数据资源入表在盘活数据资源价值的同时,为企业依据数据资源开展投融资等业务提供依据,企业增加很多融资渠道,数据以前只是作为一种征信手段,未来可以利用数据资产进行抵押或证券化,企业数据资产化增加资产规模,间接提高企业的信用评级和融资能力,同时减少文化企业与投资者之间信息不对称,帮助企业吸引投资、优化财务结构、提升公司估值。
人工智能哺育什么样的人,这是当前非常值得关注的大问题,因为数据的来源和质量决定了大模型的生命力,一定要用最真实的数据训练大模型,否则就跟小男孩天天生活在语言被严重污染的环境,久而久之就染上一身坏习惯一样。更为重要的是,千万不能因为青少年接触生成式人工智能,无意中变成了“香蕉人”,皮肤是黄的,价值观是西方的。价值观认同是人工智能发展的试金石。恰恰在这一点上,决定文化大数据在人工智能发展中大有可为、大有作为。
人工智能是文化和科技深度融合的产物。现在各个科技公司都在研发大模型,科技已经发力,文化不能缺席。科技只有与文化深度融合,人工智能才能越走越远。具体说就是文化做两头,科技做中间。根据文化大数据形成语料库,文化机构为科技公司提供语料,用于训练大模型,文化再根据应用场景开发利用大模型,这样就实现了深层次的人工智能,生成式人工智能就不只是玩具,而成为工具,服务文化传承发展的工具。
国家图书馆数字赋能古籍活化“《永乐大典》高清影像数据库”:汲古慧今 古籍新生
“中国古籍图典资源库”入选国家新闻出版署2023年出版业科技与标准创新示范项目
“中国历史文献总库·红色文献数据库”报纸简介 |《人民日报》
■ 文章来源:伏羲云编辑 | 王自晨监制 | 高爽
审核 | 弘文